Seleção da Database

Database:

Brazilian E-Commerce Public Database by Olist https://www.kaggle.com/olistbr/brazilian-ecommerce?select=olist_order_items_dataset.csv

Descrição:

A database foi provida pela Olist, uma empresa de marketplace situada no Brasil. A Olist conecta pequenos negócios por todo o Brasil de uma forma simples. Vendedores conseguem vender seus produtos diretamente pela Olist Store, as entregas são feitas por meio de parceiros.

Problema de Negócio:

Quais são os principais fatores que alavancam o número de vendas? Quais os fatores que impactam na avaliação do cliente?

Observação:

Esse é o segundo notebook, onde iremos realizar clusterização e analisar os mesmos afim de promover insights. No primeiro notebook com o prefixo '01', realizamos toda a visualização do conjunto, onde foram retirados alguns insights que serão utilizados ao longo das proximas etapas.

1. Carregamento dos Dados

image.png

2. Pre-Processamento

2.1 Feature Engineering

Iremos adicionar uma variavel extra para todos os datasets que contém o Estado. A variavel adicionada é a Região referente ao Estado.

2.2 Construindo Datasets

Devido ao problema em questão ser dividido em 8 datasets diferentes, iremos construir datasets mais unificados afim de facilitar o processo de tratamento dos dados e clusterização.

2.2.1 Unificando Dataset de Pedidos

2.3 Preparando os Dados para Clusterização

2.3.1 LabelEncoder

2.3.2 Normalização / Padronização

2.3.3 Simetria dos Dados

2.3.3.1 Skewness

2.3.3.2 Kurtosis

2.4 Analise de Clusterização

2.4.1 Elbow

Analisando a metrica de Elbow é verificado que o numero ideal para K seria 6. Pois, a queda da distancia passa a diminuir fortemente em K = 4, e em 6 tem uma redução brusca novamente.

Novamente verificando a variancia dos dados de acordo com cada valor de K, encontramos que o valor ideal é 6.

2.4.2 Modelando Clusters KMeans - Com Redução de Componentes

2.4.3 Modelando Clusters KMeans - Sem Redução de Componentes

2.4.4 Analise de Clusters